La nueva AMD Instinct MI350P ofrece 144 GB HBM3E y hasta 4 TB/s de ancho de banda para modelos LLM gigantes de hasta 250B

por David Pérez 07/05/2026

Con la actual demanda de productos para Inteligencia Artificial, los fabricantes se apresuran a ofrecer sus soluciones a las empresas que tienen este tipo de necesidades. Para ofrecer una alternativa más, AMD ha presentado su aceleradora Instinct MI350P de la familia MI350 Series, con una interfaz PCI Express para la Inteligencia Artificial empresarial. Una tarjeta que llega para adaptarse a tu actual infraestructura y ofrecer mayor potencial en tus tareas exigentes de inteligencia artificial.

AMD presenta la Instinct MI350P para IA empresarial con hasta 4600 TFLOPS pico

AMD define esta nueva solución como un adelanta para adaptarse a la era de los agentes de la Inteligencia Artificial. Cuentan con un diseño de doble ranura PCIe ideales para integrarse de forma sencilla en los servidores rack estándar refrigerados por aire. Con estas tarjetas podrás aprovechar las capacidades de inferencia en las empresas que necesitan un mayor poder de cálculo en Inteligencia Artificial, con un menor coste del que tienen las plataformas con GPUs dedicadas.

Están disponibles en sistemas con hasta ocho tarjetas aceleradoras que pueden con los más grandes modelos de IA, la inferencia y los flujos de trabajo RAG (Retrieval-Augmented Generation).

La AMD Instinct MI350P está preparada para inferencia, RAG y modelos LLM de hasta 250B

AMD ofrece estos modelos como una excelente solución para IA con un ajustado coste-rendimiento que permiten aumentar el rendimiento a la vez que se reducen los costes. Ofrecen:

Compatibilidad nativa con MXFP6 y MXFP4 de menor precisión para maximizar el rendimiento.
Aceleración con compatibilidad con Sparsity para la mayoría de las precisiones disponibles de 8 y 16 bits.
Rendimiento de hasta 2.299 TFLOPS con un pico de hasta 4.600 TFLOPS en MXFP4. AMD la define como la tarjeta de mayor rendimiento disponible en este formato para empresas.
Hasta 144 GB de memoria HBM3e con una velocidad pico de hasta 4 TB/s.
Ecosistema abierto de software con una pila para desarrollo de bajo coste o incluso gratuita.

Para garantizar la máxima compatibilidad y con un reducido coste, AMD ha desarrollado esta Instinct MI350P compatible con los estándares abiertos, que además permiten compatibilidad entre diferentes plataformas. Este modelo sigue la estrategia de AMD de ofrecer un ecosistema para IA totalmente abierto para sus clientes.

Gracias a esta pila de software, los usuarios que se hagan con una de estas tarjetas AMD podrán comenzar a desarrollar, integrándose a la perfección con multitud de herramientas de IA disponibles en el mercado. AMD ofrece a sus clientes una pila de software para IA empresarial sin costes, olvídate de pagar por token ofreciendo IA local mucho más rápida y segura.

AMD apuesta por un ecosistema abierto y software gratuito para IA empresarial

En cuanto a la precisión, estas aceleradoras de AMD ofrecen un gran rendimiento en MXFP4, pero también están optimizadas para su funcionamiento con mayor precisión como INT8 o BF16 que además se benefician de su compatibilidad con Sparsity.

Independientemente de su uso, estas tarjetas están optimizada para reducir el uso de memoria del sistema, que también ayudarán a ahorrar energía de forma general.

Esto es posible gracias a su arquitectura CNDA 4, fabricada con un nodo avanzado de 3 nanómetros que cuenta con hasta 185.000 millones de transistores. Montada sobre esta arquitectura de última generación, la Instinct MI350P cuenta con 128 CUs junto con hardware dedicado para vídeo y JPEG.

La arquitectura CDNA 4 de 3 nm integra 128 CUs y aceleración dedicada para vídeo y JPEG

Este hardware dedicado es capaz de ofrecer hasta 94 stream simultáneos a 1080p y 30 FPS con HEVC, 110 con el H.264 y 99 con AV1. Además ofrece una profundidad de color de hasta 10 bits en HEVC y VP9, junto con un formato de color 4:2:0. En esta tabla podéis ver mejor las características de aceleración por hardware y decodificación de vídeo.

Formato de decodificación por hardware	HEVC	H.264	VP9	AV1
Streams simultáneos a 1080p30	94	110	83	99
Profundidad de color	8/10 bits	8 bits	8/10 bits	8 bits
Formato de color (Chroma)	4:2:0	4:2:0	4:2:0	4:2:0

Rendimiento JPEG 4:2:0

Hasta 4425 imágenes por segundo a resolución 1080p.
Se asume una tasa de compresión de 4:1.
El motor JPEG es compatible con formatos 4:0:0, 4:2:0, 4:2:2 y 4:4:4.
El procesamiento JPEG puede ejecutarse simultáneamente e independiente de la decodificación de vídeo.

Software y aceleración

Compatible con la librería AMD ROCm Augmented Library (rocAL).
Librería de código abierto orientada a decodificación y aumento de imágenes y vídeo para aplicaciones de deep learning.

La tarjeta tiene un consumo de 600 W, aunque puede limitarse a 450 W, y está optimizada para su funcionamiento en servidores refrigerados por aire. Es compatible con hasta 4 partes independientes para varias tareas de forma concurrente o que varios usuarios puedan utilizarla a la vez.

AMD permite dividir la GPU en hasta cuatro particiones independientes para IA concurrente

Puede funcionar en diferentes modos:

SPX: utilizando la GPU al completo donde podrás utilizar los 128 CUs, 144 GB de memoria HBM3e y los 16 MB de caché. Ideal para modelos más grandes, entrenamiento pesado o computación de alto rendimiento.
DPX: Dividiendo la GPU en 2, cada una con 64 CUs y 72 GB de memoria disponibles. Una opción ideal para tareas de IA simultáneas.
CPX: Dividiendo la GPU en 4, donde cada parte puede usar hasta 32 CUs y 36 GB de memoria. Esta opción está pensada para el uso de múltiples usuarios, inferencia o la nube.

Os dejamos una tabla donde podéis ver las opciones que ofrece cada modo.

Modo de partición	Partición de cálculo	Unidades de cálculo	Partición de memoria	Motores VCN	Motores JPEG	Caché L2	Motores DMA
SPX	4/4	128	144 GB	2	20	16 MB	8
DPX	2/4	64	72 GB	1	10	8 MB	4
CPX	1/4	32	36 GB	1*	10*	4 MB	2

* Compartido entre 2 particiones.

Sus características técnicas la hacen ideal para modelos de baja latencia y que requieren una gran cantidad de memoria. Modelos como SLM, MLM, LLM, inferencia o RAG, con un tamaño de hasta 250B por cada GPU, y teniendo en cuenta que se pueden instalar hasta 8 GPUs por cada nodo.

Podrás encontrar estas tarjetas en soluciones de los principales fabricantes que incluyen las soluciones de AMD, entre ellos se encuentran:

Dell
HPE
Lenovo
Supermicro
GIGABYTE
ASUS
ASRock Rack
Microsoft
Oracle
Etc.

La AMD Instinct MI350P llegará a servidores de Dell, HPE, Lenovo, ASUS y Supermicro

Os dejamos las especificaciones de este nuevo modelo AMD Instinct MI350P.

Precisión	Rendimiento entregado	Rendimiento pico
BF16	713 TFLOPS	1150 TFLOPS
FP16	672 TFLOPS	1150 TFLOPS
FP8	1529 TFLOPS	2300 TFLOPS
MXFP8	1327 TFLOPS	2300 TFLOPS
MXFP6	1804 TFLOPS	4600 TFLOPS
MXFP4	2299 TFLOPS	4600 TFLOPS